特征工程系列:(六)特征選擇之方差過濾
有時候,數據集中的某一個特征,方差非常小,非常接近,這樣導致的結果就是,沒有區分度,那么這個特征其實就不是一個好的特征,因此方差過濾的思想就是,找到那些有區分度的特征(方差大) 如果一個特征服從 ...
有時候,數據集中的某一個特征,方差非常小,非常接近,這樣導致的結果就是,沒有區分度,那么這個特征其實就不是一個好的特征,因此方差過濾的思想就是,找到那些有區分度的特征(方差大) 如果一個特征服從 ...
數據對齊 Z分數標准化 將數據轉換成服從標准正太分布的數據 $$ \hat x = \frac{x-\mu}{\sigma} $$ 歸一化 將數據 ...
在進行特征工程的時候,為了確保模型的准確性,需要將一些異常數據排除,從而防止模型被帶偏。因此,在特征工程任務中,需要一些方法,來識別異常值。 異常值識別 (1) 箱線法 通常用戶用某個統計分布對 ...
Pandas判斷缺失值 注意,有些數據用0代替特征值,這個時候,可以將0用None 代替,這樣,isnull 函數就可以檢測出來了,而且fillna 和dropna函數都可以直接工作了。 處理 ...
有的時候,已有的特征可能並沒有有效的表征特征,尤其是針對特殊的業務的時候,極有可能需要對已有的特征進行變換,從而讓特征更加能夠表征特有的業務。這里介紹幾種常用的特征構造方法。 (1) 統計量構造 ...